# 读数据集
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df=pd.read_csv('train.csv')
print(df.head())
# 将count中的噪音值用箱线图进行显示
sns.boxplot(data=df ,y='count')
plt.show()
sns.boxplot(data=df,y='count',x='season')
plt.show()
# 显示非噪音数据的比例
# abs(x - mean) >= 3*std   噪音
# abs(x - mean) # 绝对值
#平均值
miu=df['count'].mean()
#标准差
sigma=df['count'].std()
noise=df[abs(df['count']-miu)>(3*sigma)]
nonoise=df[abs(df['count']-miu)<(3*sigma)]
bili=len(nonoise)/(len(noise)+len(nonoise))
print(bili)
# 删除噪音数据（保留非噪音数据）
df_new=nonoise